Fashion MINIST

提供者:刘唯

简介

FashionMNIST 是一个替代 MNIST 手写数字集 [1] 的图像数据集。 它是由 Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。FashionMNIST 的大小、格式和训练集/测试集划分与原始的 MNIST 完全一致。60000/10000 的训练测试数据划分,28x28 的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。

获取数据

名称描述样本数量文件大小链接train-images-idx3-ubyte.gz训练集的图像60,00026 MByteshttps://link.zhihu.com/?target=http%3A//fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz
train-labels-idx1-ubyte.gz训练集的类别标签60,00029 KByteshttps://link.zhihu.com/?target=http%3A//fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz
t10k-images-idx3-ubyte.gz测试集的图像10,0004.2 MByteshttps://link.zhihu.com/?target=http%3A//fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz
t10k-labels-idx1-ubyte.gz测试集的类别标签10,0005.0 KByteshttps://link.zhihu.com/?target=http%3A//fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz

类别标注

每个训练和测试样本都按照以下类别进行了标注:
标注编号描述0T-shirt/top(T恤)1Trouser(裤子)2Pullover(套衫)3Dress(裙子)4Coat(外套)5Sandal(凉鞋)6Shirt(汗衫)7Sneaker(运动鞋)8Bag(包)9Ankle boot(踝靴)

如何载入数据

使用Python (需要安装numpy)

import mnist_reader
X_train, y_train = mnist_reader.load_mnist(‘data/fashion’, kind=’train’)
X_test, y_test = mnist_reader.load_mnist(‘data/fashion’, kind=’t10k’)

使用Tensorflow

from tensorflow.examples.tutorials.mnist import input_data
data = input_data.read_data_sets(‘data/fashion’)

data.train.next_batch(100)

数据可视化

t-SNE在Fashion-MNIST(左侧)和经典MNIST上的可视化(右侧)
PCA在Fashion-MNIST(左侧)和经典MNIST上的可视化(右侧)

相关论文

1.Han Xiao;Kashif Rasul;Roland Vollgraf.Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms[J].Learning.2017